We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译
在深入学习革命之前,许多感知算法基于运行时优化与强大的先前/正则化罚款。计算机视觉中的主要示例是光学和场景流。监督学习在很大程度上取代了明确规范化的必要性。相反,它们依靠大量标记的数据来捕获前面的统计数据,这并不总是随时可用的许多问题。虽然采用优化来学习神经网络,但是该网络的权重在运行时冻结。因此,这些学习解决方案是特定于域的,并不概括到其他统计上不同的场景。本文重新审视了依赖于运行时优化和强正规化的现场流动问题。这里的核心创新是在先前包含神经场景流,这利用神经网络的体系结构作为一种新型的隐式规范器。与基于学习的场景流方法不同,优化发生在运行时,并且我们的方法不需要脱机数据集 - 使其成为在自动驾驶等新环境中部署的理想选择。我们表明,专门在多层erceptrons(MLPS)上基于的架构可以用作现场流程。我们的方法持续竞争 - 如果没有更好的 - 结果在场景流基准上。此外,我们的神经先前的隐式和连续场景流量表示允许我们估计一系列点云序列的密集长期对应。密集运动信息由场景流场表示,其中通过积分运动向量可以通过时间传播点。我们通过累积激光雷达云序列来证明这种能力。
translated by 谷歌翻译
This report summarizes the work carried out by the authors during the Twelfth Montreal Industrial Problem Solving Workshop, held at Universit\'e de Montr\'eal in August 2022. The team tackled a problem submitted by CBC/Radio-Canada on the theme of Automatic Text Simplification (ATS).
translated by 谷歌翻译
Graph Neural Networks (GNNs) have been successfully applied in many applications in computer sciences. Despite the success of deep learning architectures in other domains, deep GNNs still underperform their shallow counterparts. There are many open questions about deep GNNs, but over-smoothing and over-squashing are perhaps the most intriguing issues. When stacking multiple graph convolutional layers, the over-smoothing and over-squashing problems arise and have been defined as the inability of GNNs to learn deep representations and propagate information from distant nodes, respectively. Even though the widespread definitions of both problems are similar, these phenomena have been studied independently. This work strives to understand the underlying relationship between over-smoothing and over-squashing from a topological perspective. We show that both problems are intrinsically related to the spectral gap of the Laplacian of the graph. Therefore, there is a trade-off between these two problems, i.e., we cannot simultaneously alleviate both over-smoothing and over-squashing. We also propose a Stochastic Jost and Liu curvature Rewiring (SJLR) algorithm based on a bound of the Ollivier's Ricci curvature. SJLR is less expensive than previous curvature-based rewiring methods while retaining fundamental properties. Finally, we perform a thorough comparison of SJLR with previous techniques to alleviate over-smoothing or over-squashing, seeking to gain a better understanding of both problems.
translated by 谷歌翻译
移动对象检测(MOD)是许多计算机视觉应用程序的基本步骤。当从静态或移动的摄像机捕获的视频序列遇到挑战时,MOD变得非常具有挑战性:伪装,阴影,动态背景和照明变化,仅举几例。深度学习方法已成功地应用于竞争性能。但是,为了解决过度拟合的问题,深度学习方法需要大量标记的数据,这是一项艰巨的任务,因为始终无法提供详尽的注释。此外,某些MOD深度学习方法显示了在看不见的视频序列存在下的性能下降,因为在网络学习过程中涉及相同序列的测试和训练分裂。在这项工作中,我们使用图形卷积神经网络(GCNN)提出了MOD作为节点分类问题的问题。我们的算法被称为GraphMod-NET,包括实例分割,背景初始化,特征提取和图形结构。在看不见的视频上测试了GraphMod-NET,并且在无监督,半监督和监督的学习中,在2014年变更检测(CDNET2014)和UCSD背景减法数据集中的最先进方法进行了测试。
translated by 谷歌翻译
本文总结了贸易中央实验室的联合参与和拉罗谢尔大学的L3I实验室在共享任务FinSIM-4评估活动的两个子任务中的共同参与。第一个子任务旨在通过New Lexicon条目丰富“ Fortia ESG分类学”,而第二个则旨在将刑期分类为“可持续”或“不可持续”,以涉及ESG(环境,社会和治理)相关因素。对于第一个子任务,我们提出了一个基于预训练的句子 - 伯特模型的模型,以在公共空间中的项目句子和概念,以更好地表示ESG概念。官方任务结果表明,与基线相比,我们的系统在绩效方面取得了重大改进,并且优于第一个子任务上的所有其他提交。对于第二个子任务,我们将Roberta模型与馈电多层感知器相结合,以提取句子的上下文并对其进行分类。我们的模型获得了高精度得分(超过92%),并在前5个系统中排名。
translated by 谷歌翻译
在过去的十年中,许多组织制作了旨在从规范意义上进行标准化的文件,并为我们最近和快速的AI开发促进指导。但是,除了一些荟萃分析和该领域的批判性评论外,尚未分析这些文档中提出的思想的全部内容和分歧。在这项工作中,我们试图扩展过去研究人员所做的工作,并创建一种工具,以更好地数据可视化这些文档的内容和性质。我们还提供了通过将工具应用于200个文档的样本量获得的结果的批判性分析。
translated by 谷歌翻译
通讯和社交网络可以从分析师和公众提供公司提供的产品和/或服务的角度来反映市场和特定股票的意见。因此,这些文本的情感分析可以提供有用的信息,以帮助投资者在市场上进行贸易。在本文中,建议通过预测-1和+1之间的范围内的分数(数据类型Rime)来确定与公司和股票相关的情绪。具体而言,我们精细调整了罗伯塔模型来处理头条和微博,并将其与其他变压器层组合,以处理与情绪词典的句子分析,以改善情绪分析。我们在Semeval-2017任务5发布的财务数据上进行了评估,我们的命题优于Semeval-2017任务5和强基线的最佳系统。实际上,与财务和一般情绪词典的上下文句子分析的组合为我们的模型提供了有用的信息,并允许它产生更可靠的情感分数。
translated by 谷歌翻译
移动对象检测是计算机愿景中的讨论的核心主题,适用于自动驾驶汽车,视频监控,安全和执法中的广泛应用。神经形态视觉传感器(NVS)是生物启发传感器,用于模仿人眼的工作。与传统的基于帧的相机不同,这些传感器捕获异步'事件'流,其在前者上呈现多个优点,如高动态范围,低延迟,低功耗和减少的运动模糊。然而,这些优点成本高,因为事件相机数据通常包含更多噪声并具有低分辨率。此外,由于基于事件的相机只能捕获场景的亮度的相对变化,事件数据不包含来自普通摄像机的视频数据中的通常可视信息(如纹理和颜色)。因此,在基于事件的相机中移动对象检测成为一个极具挑战性的任务。在本文中,我们介绍了一种无监督的曲线谱聚类技术,用于在基于事件的数据中移动对象检测(GSceVentMod)。我们还展示了如何自动确定最佳的移动物体数量。公开数据集上的实验比较表明,所提出的GSceventMod算法优于最大限度的最新技术,最大余量为30%。
translated by 谷歌翻译